智能论文笔记

Visually-aware Acoustic Event Detection using Heterogeneous Graphs

Amir Shirian , Krishna Somandepalli , Victor Sanchez , Tanaya Guha

分类：机器学习

2022-07-16

听觉事件的感知固有地依赖于音频和视觉提示。许多现有的多模式方法使用模式特异性模型处理每种模式，然后融合嵌入以编码关节信息。相反，我们采用异质图来明确捕获模态之间的空间和时间关系，并表示有关基础信号的详细信息。使用异质图方法来解决视觉感知的声学事件分类的任务，该任务是一种紧凑，有效且可扩展的方式，以图形形式表示数据。通过异质图，我们显示了在空间和时间尺度上有效地建模模式和模式间关系。我们的模型可以通过相关的超参数轻松适应不同的事件规模。在Audioset上进行的实验（一个大型基准）表明，我们的模型实现了最先进的性能。

translated by 谷歌翻译

Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection

Kyle Min , Sourya Roy , Subarna Tripathi , Tanaya Guha , Somdeb Majumdar

分类：计算机视觉

2022-07-15

在带有多个扬声器的视频中，主动扬声器检测（ASD）是一项具有挑战性的任务，因为它需要在长时间的暂时窗口上学习有效的视听功能和时空相关性。在本文中，我们提出了一种新颖的时空图形学习框架，可以解决复杂的任务，例如ASD。为此，视频框架中的每个人首先在该框架的唯一节点中编码。对应于跨帧的单个人的节点已连接以编码其时间动力学。帧中的节点也连接到编码人际关系。因此，咒语将ASD减少到节点分类任务。重要的是，咒语能够在所有节点上为所有节点上的长时间环境推理，而无需依赖计算昂贵的完全连接的图形神经网络。通过对Ava-Activespeaker数据集进行的广泛实验，我们证明了基于图形的表示形式可以显着改善主动扬声器检测性能，因为其明确的空间和时间结构。拼写优于所有先前的最新方法，同时需要大大降低内存和计算资源。我们的代码可在https://github.com/sra2/spell上公开获取

translated by 谷歌翻译

Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data

Amir Shirian , Krishna Somandepalli , Tanaya Guha

分类：机器学习

2022-01-31

具有高质量手动注释的大型数据库在音频域中很少。因此，我们探索了一种从高度有限的标记数据中学习音频表示的自我监管的图形方法。将每个音频示例视为图节点，我们提出了一个基于子图的框架，具有新颖的自学任务，可以学习有效的音频表示。在训练过程中，通过对整个可用培训数据进行采样以利用标签和未标记的音频样本之间的关系来构建子图。在推断期间，我们使用随机边缘来减轻图形结构的开销。我们在三个基准音频数据库和两个任务上评估了模型：声学事件检测和语音情绪识别。我们的半监督模型的性能更好或与完全监督的模型相当，并且优于几个竞争现有模型。我们的模型是紧凑的（240K参数），可以产生对不同类型的信号噪声强大的通用音频表示。

translated by 谷歌翻译

Head Matters: Explainable Human-centered Trait Prediction from Head Motion Dynamics

Surbhi Madan , Monika Gahalawat , Tanaya Guha , Ramanathan Subramanian

分类：机器学习

2021-12-15

我们展示了基本的头部动作单位被称为行为分析的Kinemes，以预测人格和面试特征。将头部运动模式转换为一系列型术语有助于发现表征目标性状的潜在时间签名，从而实现有效和可说明的特征预测。利用Kinemes和面部动作编码系统（FACS）特征来预测（a）在第一次印象上的海洋人格性状候选筛选视频中，（b）在MIT数据集上的面试特征，我们注意到：（1）长期用Kineme序列训练的内存（LSTM）网络表现优于或类似于用面部图像培训的卷积神经网络（CNN）;（2）与Kinemes组合的FACS动作单位（AUS）组合实现了精确的预测和解释，并且（3）预测性能受到朝向头部和面部运动的时间长度的影响。

translated by 谷歌翻译

Learning Spatial-Temporal Graphs for Active Speaker Detection

Sourya Roy , Kyle Min , Subarna Tripathi , Tanaya Guha , Somdeb Majumdar

分类：计算机视觉

2021-12-02

我们通过新的框架解决了主动扬声器检测问题，称为法术，从而了解远程多模式图来编码音频和视觉数据之间的模态关系。我们将主动扬声器检测作为了解长期依赖项的节点分类任务。我们首先从视频构造图形，以便每个节点对应一个人。表示在定义的时间窗口中它们之间相同身份的共享边缘的节点。同一视频帧中的节点也连接以编码人际交互。通过对AVA-ActiveSpeaker数据集的广泛实验，我们证明了基于学习的基于图形的表示，由于其明确的空间和时间结构，显着提高了整体性能。法术优于若干相关基线，并在现有技术的比例下执行，同时需要较小的计算成本阶数。

translated by 谷歌翻译

Towards Algorithmic Fairness in Space-Time: Filling in Black Holes

Cheryl Flynn , Aritra Guha , Subhabrata Majumdar , Divesh Srivastava , Zhengyi Zhou

分类：机器学习

2022-11-08

New technologies and the availability of geospatial data have drawn attention to spatio-temporal biases present in society. For example: the COVID-19 pandemic highlighted disparities in the availability of broadband service and its role in the digital divide; the environmental justice movement in the United States has raised awareness to health implications for minority populations stemming from historical redlining practices; and studies have found varying quality and coverage in the collection and sharing of open-source geospatial data. Despite the extensive literature on machine learning (ML) fairness, few algorithmic strategies have been proposed to mitigate such biases. In this paper we highlight the unique challenges for quantifying and addressing spatio-temporal biases, through the lens of use cases presented in the scientific literature and media. We envision a roadmap of ML strategies that need to be developed or adapted to quantify and overcome these challenges -- including transfer learning, active learning, and reinforcement learning techniques. Further, we discuss the potential role of ML in providing guidance to policy makers on issues related to spatial fairness.

translated by 谷歌翻译

LegalBench: Prototyping a Collaborative Benchmark for Legal Reasoning

Neel Guha , Daniel E. Ho , Julian Nyarko , Christopher Ré

分类：人工智能

2022-09-13

是否可以指导基础模型执行涉及法律推理的任务？我们认为，建立一个基准来回答这个问题将需要计算机科学与法律社区之间持续的合作努力。为此，这份简短的纸张有三个目的。首先，我们描述了IRAC-A框架法律学者如何用来区分不同类型的法律推理 - can指导基础模型的基础基准。其次，我们介绍了根据此框架构建的44个任务的种子集。我们讨论初始发现，并突出显示新任务的方向。最终，由开放科学运动引起的启发 - 我们呼吁法律和计算机科学社区通过贡献新任务来加入我们的努力。这项工作正在进行中，我们的进度可以在此处跟踪：https：//github.com/hazyresearch/legalbench。

translated by 谷歌翻译

A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages

Federico Cassano , John Gouwar , Daniel Nguyen , Sydney Nguyen , Luna Phipps-Costin , Donald Pinckney , Ming Ho Yee , Yangtian Zi , Carolyn Jane Anderson , Molly Q Feldman

分类：机器学习

2022-08-17

大型语言模型已经证明了能够在自然语言和编程语言文本上进行条件和生成的能力。这样的模型打开了多语言代码生成的可能性：代码生成模型是否可以将知识从一种语言推广到另一种语言？尽管当代代码生成模型可以生成语义上正确的Python代码，但对它们使用其他语言的能力知之甚少。我们通过提出Multipl-E来促进该主题的探索，这是自然语言到代码生成的第一个多语言平行基准。 Multipl-E扩展了HumaneVal基准（Chen等，2021），以支持另外18种编程语言，涵盖了一系列编程范式和受欢迎程度。我们在Multipl-E：Codex和Incoder上评估了两个最先进的代码生成模型。我们发现，在几种语言上，法典匹配，甚至超过了其在Python上的性能。在多型E中表示的编程语言范围使我们能够探索语言频率和语言功能对模型性能的影响。最后，将代码生成基准分配给新编程语言的多重方法既可扩展又可扩展。我们描述了一种通用方法，可以轻松地增加对新基准和语言的支持。

translated by 谷歌翻译

Annealed Training for Combinatorial Optimization on Graphs

Haoran Sun , Etash K. Guha , Hanjun Dai

分类：机器学习

2022-07-23

组合优化的硬度（CO）问题阻碍收集用于监督学习的解决方案。但是，由于缺乏标记的数据，因此很难学习CO问题的神经网络，因为训练很容易被捕获到本地Optima。在这项工作中，我们为CO问题提出了一个简单但有效的退火培训框架。特别是，我们将CO问题转化为公正的基于能量的模型（EBM）。我们仔细选择了罚款条款，以使EBM尽可能平滑。然后，我们训练图形神经网络以近似EBM。为了防止训练在初始化附近被卡在本地Optima上，我们引入了退火损失功能。实验评估表明，我们的退火训练框架获得了实质性改进。在四种类型的CO问题中，我们的方法在合成图和现实世界图上都比其他无监督神经方法更好地达到了性能。

translated by 谷歌翻译

Private Matrix Approximation and Geometry of Unitary Orbits

Oren Mangoubi , Yikai Wu , Satyen Kale , Abhradeep Guha Thakurta , Nisheeth K. Vishnoi

分类：机器学习 | (统计)机器学习

2022-07-06

考虑以下优化问题：给定$ n \ times n $矩阵$ a $和$ \ lambda $，最大化$ \ langle a，u \ lambda u^*\ rangle $，其中$ u $ $ u $在unital Group $ \ mathrm上变化{u}（n）$。这个问题试图通过矩阵大约$ a $，其频谱与$ \ lambda $相同，并且通过将$ \ lambda $设置为适当的对角矩阵，可以恢复矩阵近似问题，例如pca和等级$ k $近似。我们研究了在使用用户的私人数据构建矩阵$ a $的设置中，为这种优化问题设计差异化私有算法的问题。我们给出有效的私有算法，在近似误差上带有上和下限。我们的结果统一并改进了有关私人矩阵近似问题的几项先前的作品。他们依靠格拉斯曼尼亚人的包装/覆盖数量范围扩展到应该具有独立利益的单一轨道。

translated by 谷歌翻译